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Применение вейвлет-анализа для определения 
границ речи в зашумленном сигнале 


В статье предложена методика определения границ речи в звуковом сигнале, содержащем шум, на 
основе вейвлет-анализа. Одним из этапов этой процедуры является классификация фреймов входного 
сигнала, основанная на энергетических характеристиках вейвлет-спектра и позволяющая учитывать 
акустические характеристики широких фонетических классов звуков речи. Подобный подход Дает 
возможность определить границы речи при наличии высокоамплитудных помех, провести сегментацию 
речевого сигнала и повысить эффективность дальнейшего распознавания. 


Введение 


Одним из важных направлений исследований в области искусственного интел- 
лекта является разработка интеллектуальных систем образного восприятия речевой 
информации, среди которых значительную роль играют системы распознавания 
речи. Проблемы, возникающие при распознавании речевого сигнала, связаны с его 
вариативностью, шумом окружающей среды и звукозаписывающего оборудования, 
поэтому качество распознавания существенно зависит от предварительной обработки 
сигнала. 

Одним из этапов предварительной обработки речевого сигнала является опреде- 
ление границ речи. Соответствующие методы реализованы в многочисленных 
детекторах речи (УАО). Общим свойством УАО-алгоритмов является то, что они 
включают в себя обучение (вычисление характеристик шума) и спектральное 
вычитание. Чаще всего в качестве признаков, определяющих начало и конец слова, 
выбираются энергетические и спектральные характеристики сигнала [1-3], а также 
число переходов через ноль [4], [5]. К недостаткам УАО-алгоритмов, базирующихся 
на оценке энергетических характеристик сигнала, относится возможность принятия 
кратковременного шума с высокой амплитудой за речь либо низкоамплитудного 
речевого сигнала за шум. Корректно работающий в подобных ситуациях детектор 
описан в [6], в качестве признаков классификации речь/шум используются мел- 
частотные кепстральные коэффициенты. Однако для его эффективной работы необ- 
ходимо наличие в обучающем множестве как сигнала, содержащего только шум, так 
и речевых баз данных. 

Кроме того, большинство из УАР не способны точно определять границы речи 
в условиях шума, уровень которого превышает или близок к уровню шумных глухих 
щелевых и смычно-щелевых звуков. Для решения этой проблемы необходимо при 
формировании набора признаков, определяющих начало и конец слова, учитывать 
спектральные характеристики широких фонетических классов (ШФК) звуков речи, а 
также их длительность. 

Для описания локальных особенностей неоднородных сигналов, к которым 
относится речевой сигнал, в последнее время эффективно употребляется вейвлет- 
преобразование, которое обеспечивает подвижное частотно-временное окно анализа 
и адаптировано к локальным свойствам сигнала [7], [8]. 
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В данной работе на основе вейвлет-анализа предлагается методика определе- 
ния границ речи в звуковом сигнале, позволяющая выделить речь при наличии 
высокоамплитудных помех за счет учета акустических характеристик ШФК звуков 
речи с одновременной первичной сегментацией речевого сигнала. 

Под термином «первичная сегментация» в данной работе понимается разбие- 
ние сигнала на участки, каждый из которых содержит один из следующих ШФК 
звуков речи: 

— шум (№6е); 

— вокализованный звук (Гос); 

— шумный глухой щелевой или смычно-щелевой звук (5й); 
— шумный глухой смычный звук (Р). 


Методика определения границ речи 


Предложенная ниже методика определения границ речи использует быстрое 
вейвлет-преобразование Добеши [9] и состоит из трех этапов: обучения шуму, клас- 
сификации фреймов сигнала, определения границ речи (рис. 1). 


Г, К, 
х&п), 1. Обучение 2. Классифи- 3. Определение (т) 
&п) шуму кация фреймов границ речи Воипа 


Рисунок 1 — Схема методики определения границ речи 


Входными данными этой процедуры являются зашумленный сигнал хё(п) и об- 
разец шума &(и); выходными данными -— отсчеты сигнала [, К, которые соответст- 
вуют левой и правой границам слова, вычисленные по образцу шума на каждом 
уровне разложения; пороги 0(т) и массив номеров граничных фреймов, полученный 
в результате классификации фреймов. 

На этапе обучения шуму выполняется вейвлет-разложение сигнала (п), его 
разбиение на фреймы длиной ДМ, образующие множество фреймов Рь, и вычисление 
порогов а(т): 


а(т) = Ауег, (т) +3\/О; (т) , т=Т,..., Лшах, (1) 


где ] пах — максимальный уровень вейвлет-разложения; Ауег, (т), О, (т) — полученные 
на множестве РЁ’, среднее и смещенная оценка дисперсии величин (2), представляю- 


щих собой энергии спектра Е* (т) сигнала &(и) 


р 5АМ / 27 2 
Е; (т) = У (2) 
п=(5-ПАМ/2” 


На этапе классификации каждый фрейм входного сигнала х.(п) относят к одно- 
му из четырех ШФК, перечисленных выше. Классификация фреймов проводится на 
множествах уровней разложения: Мис={т: Тьс < т < вах} — СООТветствует полосе 
частот основного тона (100 — 300 Гц); Ми={т: 1 < т < ти} — соответствует высокочас- 
тотной области спектра (более 2500 Гц), где сосредоточена энергия звуков класса 5й. 
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Рис. 2 демонстрирует поведение характеристик (2) для сигнала, записанного в усло- 
виях высокоамплитудного производственного шума (отношение сигнал/шум 2,3 дБ), 
содержащего звуки различных ШФК (рис. 2а), на уровне теМ.л (рис. 26) итЕМьие 
(рис. 2в). 


а) 
80 


60 


т — АВП 


сигнала 


-20 №, ГИ й т | 


— Е (и) 


о(т) 


40 — Е, (т) 


а(т) 


Рисунок 2 —а) Амплитудно-временное представление слова «Сушка», записанного в 
условиях производственного шума, 6) энергия вейвлет-спектра слова «Сушка» на 
уровне теМи,; в) энергия вейвлет-спектра слова «Сушка» на уровне теМуос 


Как видно из рис. 2, амплитудно-частотные характеристики банка вейвлет-фильтров 
позволяют на множестве уровней разложения М» выделить из сигнала вокализованные 
звуки, на множестве уровней разложения М.и — звуки класса 5й. 
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Классификация фреймов сигнала проводится по следующим правилам: 
Ех (т) < Уа(т) > 5+ №бе\УР, 
ТЕМ ис УМ; 


Е; (т)> Уа(т) > 5е Гос, 
ТЕМ ие 


Е; (т)< Уа(т)|^| Е; (т)> Уа(т)|>5е5й, 
ТЕМ и тЕМ уд 
где Е,(т) — энергия 5-го фрейма сигнала х,(п). 
На основе классификации фреймов строится функция их маркировки: 
0, зе №юще\УР 
Мак ($) =3 1, 5ЕЙГос (3) 
2. 5ЕЗЙ 


Чтобы не принимать кратковременный высокоамплитудный шум за речь, необ- 
ходимо уточнить маркировку фреймов с учетом минимальной длительности фонемы 
согласно правилу: 


9№1,№2: (0 < №2 — М < Г) ^ (Ма (МП) = Май (№2) = 0)^ 
(Маг (МТ + 1) = 0) л (Ма’ (№2 — 1) = 0) > \5:М <5 < № Ма’) = 0, 
где Гиш — число фреймов, соответствующее максимальной длительности фонемы. 
Следующий этап — определение границ речи. Номера отсчетов Ё и А, которые 
являются левой и правой границами речи, определяются согласно (4) и (5): 
ЭМ№: (У5<М, МатК($) = 0) л Ма’(М№)) = 0 > Г = МАМ, (4) 
ЭМ№,: (\5: №, < $<М,- Гиах Мат) =0) л Ма’К(М,) = 0 — В = М,АМ, (5) 
где Гиах — число фреймов, соответствующее максимальной длительности звука клас- 
са Р; АМ - длина фрейма; №, №, — номера фреймов, соответствующих левой и правой 
границам речи. 
Чтобы не принимать низкоамплитудный речевой сигнал за шум, уточняется 
маркировка фреймов следующим образом: 
У: (М<5<М,) л (Ма’К($) = 0) >> Мак($) = 3. (6) 
Таким образом, с учетом (6) функция маркировки (3) примет вид: 


0 уе №5е 


1 5ЕГос 
Магк($) = р в (7) 
3 з53ЕР 


Функция (7) позволяет провести первичную сегментацию речевого сигнала с 
одновременной классификацией сегментов. Номера граничных фреймов образуют 
массив (8): 


Воипа = {5: (М Г < $ < М, — Г) ^ (Ма — 1) = Ма ($). (8) 
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Результаты численного исследования 


Предложенная методика была реализована в виде программного модуля, который 
является составной частью информационной технологии, реализующей функции 
предварительной обработки, сегментации речевого сигнала, классификации и распо- 
знавания фонем. Тестирование этого модуля проводилось на сигналах, зашумленных 
цветными шумами, а также содержащих производственные шумы от работающих 
технических устройств. 

В численном исследовании участвовало 50 дикторов с различными голосовыми 
данными. Каждый диктор произносил слова, содержащие звуки различных ШФК. 
Слова записывались с частотой дискретизации 22050 Гц, 8 бит, моно. Результаты 
исследования для сигналов с различными видами шумов сведены в табл. 1, куда при 
определении границ речи (столбец М№ке) и сегментов, содержащих звуки классов 
Гос, 5й, Р (столбцы Гос, 5й, Р соответственно), занесены: вероятности ошибочного 
определения границ (столбцы © — вероятность ошибки первого рода) и пропуска гра- 
ниц (столбцы В — вероятность ошибки второго рода). 


Таблица 1 — Вероятности ошибок первого и второго рода при определении границ 
речи и первичной сегментации 


Гос 5й Р № т5е 


Тип шума 


о В о В о В о В 
Коричневый шум, 
отношение сигнал/ | 0,020 | 0,018 | 0,022 | 0,019 | 0,021 | 0,019 | 0,021 | 0,019 
шум 9 дБ 


Розовый шум, 
отношение сигнал/ | 0,045 | 0,043 | 0,049 | 0,030 | 0,043 | 0,029 | 0,049 | 0,030 
шум 15 дБ 


Белый шум, 
отношение сигнал/ | 0,025 | 0,021 | 0,041 | 0,036 | 0,018 | 0,015 | 0,041 | 0,036 
шум 18 дБ 


Производственный 
шум, отношение сиг- | 0,020 | 0,019 | 0,024 | 0,015 | 0,016 | 0,014 | 0,024 | 0,019 
нал/шум 2 — 5 дБ 


Как можно видеть из табл. 1, вероятности ошибок определения границ речи и 
сегментов, содержащих звуки разных ШФК, для зашумленных сигналов различными 
видами шумов не превышают 0,05. 


Выводы 


Основным результатом данной статьи, отражающим научную новизну, является 
то, что усовершенствованы методики определения границ речи на основе методов вейвлет- 
анализа за счет использования акустических характеристик звуков речи, принадле- 
жащих различным ШФК, что дает возможность: определить границы речи в звуковом 
сигнале при высокоамплитудных помехах, а также в условиях шума, уровень которого 
превышает или близок к уровню шумных глухих щелевых и смычно-щелевых звуков; 
провести первичную сегментацию речевого сигнала с одновременной классифика- 
цией полученных сегментов. Подобный подход на этапе предварительной обработки 
позволяет понизить ошибки дальнейшего распознавания. 
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Численные исследования показали эффективность применения предложенной 
методики для сигналов, содержащих шумы различных видов, вероятности ошибок 
при определении границ речи и сегментов не превышают 0,05. 

Предложенный подход определения границ речи может быть использован для 
построения интеллектуальных систем взаимодействия пользователя и компьютера, а 
также систем речевого управления техническими устройствами. 


Литература 


1. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А. Организация иерархической модели 
распознавания слитной речи // Искусственный интеллект. - 2001. — № 3. - С. 17-22. 

2. Егеетал О., Зоп@сой С., Воуа Г.А. Ус1се аснуйу даесюг Юг Фе Рап-Еигореап Чиа! се!аг тобШе 
{е]ерКопе 5егутсе // ТЕЕЕ СоПодийит «Гуе1ахед Зреесн Сотлтитшсайоп ма Мое Кад1о». — Гопдоп 
(Стеаё Вгиалл). — 1988. -Р. 61-65. 

3. Лшаца 7.С., Мак В., Кеауез В. А Воби$Е А1еогит Юг У/ог4 Воипдагу Реесйоп ш Фе Ргезепсе оЁ 
№ шл15е // ТЕЕЕ ТгапзасНоп$ оп Зреесн Ап@ю Ргосеззтэ. — 1994. — Уо1. 2, № 3. -Р. 406-412. 

4. Редди Д.Р. Машинное распознавание речи // ТИИЗЭР. - 1976. - Т. 64, № 4. - С. 95-127. 

5. бауой М.Н. А Воба$ Азогит Юг Ассигае Епарошйип? оЁ Зреесь // Зреесв Сотилитсаноп. - 1989. — 
\о1. 8, № 3. -Р. 45-60. 

6. Тот! Кшиипеп, Еузетша СБегпепко, МагКо Тиопопеп, Раз1 Егапа, На1тВоч Гл / Уссе Аснуцу Баес- 
поп Озш» МЕСС Ееафгез ап4 ЗиРогё Уесюг МасБше // Ргос. Пиегпайопа| СопЁ. оп ЗреесВ апа 
Сотршег (ЗРЕСОМ?2007). — Мозсо\ (Кизз1а). — 2007. -Р. 556-561. 

7. Малла С. Вейвлеты в обработке сигналов: Пер. с англ. — М.: Мир, 2005. -— 671 с. 

Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. — СПб.: ВУС, 1999. - 208 с. 

9. Добеши И. Десять лекций по вейвлетам: Пер. с англ. — Москва; Ижевск: РХД, 2004. —464 с. 


о 


Т.В. Ермоленко, А.В. Лащенко 

Методика визначення границь мовлення у сигналь який мстить шум, на баз! вейвлет-анал!за 
Запропоновано методику визначення границь мовлення у звуковому сигнал, який мстить шум, на 
баз! вейвлет-анал!зу. Одним 13 еташв ще! процедури е класифлкащя фрейм1в вхдного сигналу, який 
базуеться на енергетичних характеристиках вейвлет-спектра та дозволяе ураховувати акустичн! 
характеристики широких фонетичних класв звукюв мовлення. Такий шдхд забезпечуе визначення 
границь мовлення при наявност! високоамплтудних завад, надае можливтсть виконати сегментацию 
мовного сигналу та шдвищити ефективн1сть подальшого розшзнавання. 


Т.И. Уегтыенко, А.Г. Газсйепко 

У’ау@е-Апа!у$5 АррИсайоп ог Зреесв Воипдате$ ОеесйНоп ш а №15е4 З1опа!| 

\М/ауе[е{-апа[у51$ Базе тео4 юг зреесь Боип4дапез деесйоп ш а позе 1юпа| уаз оЙеге4. Аз опе оЁ 
эбасез #15 шейо4 шс[а4ез шриё $12па1’5 Нате с1азШИсаНоп, уЛись 1$ Базе оп \уауе|е! зресёлат епегоу 
спагас(ет1$Ясз.  аПо\уз тю ‘аКе шю ассоип{ асойзИс сБагасег15Яс$ оЁ зреесВ зоип45$” улае с1аз$1НЯсаНоп. 
ЗисВ ап арргоасВ э1уе5 ап оррогапйу ю аПосае а зреесВ шт а 51епа[ ул 12| -атарШаае по15е$, {0 ехесше 
а зреесВ $1епа| зестешаНоп ап {о га1зе еЁЙслепсу оЁ Виег гесоот1 оп. 
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